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摘要 : [目的 /意义 ] SARAH RRARAM, PAB RRERP NARA HE, BNR 
测 社 交 媒 体 用 户 的 性 别 ， 能 够 更 好 地 针对 不 同性 别 用 户 提供 隐私 保护 。 [ 方法 /过 程 ] 以 新 浪 
微 博 这 一 社交 媒体 中 用 户 发 布 的 短文 本 为 研究 对 象 ， 从 中 抽取 语言 特征 和 主题 特征 ， 为 每 一 个 
用 户 构建 基于 语言 特征 、 主 题 特征 以 及 两 个 特征 登 加 的 特征 表达 向 量 ， 利 用 SVM 机 器 学 习 算 法 
构建 性 别 预测 的 分 类 器 。[ 结果 /结论 ] 实验 表明 ， 从 微 博 短文 本 中 抽取 的 语言 特征 和 主题 特 
征 能 够 准确 预测 用 户 性 别 ， 其 效果 在 主要 评价 指标 中 均 有 大 幅 提 升 。 
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Qiz 私 安全 的 保护 ， 信 息 的 隐私 保护 依然 处 于 相对 
滞后 的 状态 ， 公 共 部 门 信息 资源 增值 利用 中 
随 着 互联 网 的 深入 发 展 ， 近 年 来 信息 安全 VERAS: AIA TARAN AAR, 
o P OP eta 个人 信息 还 存在 着 信息 授权 、 利 益 平衡 、 法 律 
逐步 得 到 了 人 们 的 重视 ， 中 共 中 央 成 立 了 中 央 CAM 
PATA PROBE T ga ee ate a gL UAE OP 
网 络 安全 和 信息 化 领导 小 组 ，“ 没 有 信息 安全 ea oi iis ine 
abe i 虽然 有 大 量 的 法 律 法 规 对 个 人 信息 保护 提出 立 
就 没有 国家 安全 ”的 理念 深入 人 心 。 但 现 阶段 ， 法， 但 在 实际 过 程 中 ， 法 律 法 规 起 到 的 保护 作 
对 信息 商业 价值 的 利用 仍 远 远 超过 了 对 信息 隐 O" 
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用 有 限 ,， 个 人 信息 的 保护 还 存在 一 些 障碍 中 。 

社交 媒体 持续 发 展 ， 用 户 数量 不 断 壮大 。 
一 方面 社交 媒体 的 发 展 为 用 户 提 供 了 方便 快捷 
的 信息 获取 方式 ; 另 一 方面 由 于 社交 媒体 的 使 
用 者 门槛 较 低 ， 社 交 网 络 的 开放 性 、 共 享 性 与 
连通 性 的 特点 马 ， 使 得 用 户 的 个 人 信息 容易 受 
到 侵犯 。 为 保护 个 人 信息 安全 ， 部 分 用 户 在 进 
行 注册 时 会 选择 不 填 或 虚假 填写 自己 的 性 别 S, 
而 相关 研究 表明 女性 用 户 对 信息 层面 因素 敏感 ， 
更 易 受 影响 马 ， 相 较 而 言 更 容易 透露 自己 的 隐 
私信 息 钼 。 因 此 需要 基于 用 户 的 性 别提 供 服务 ， 
对 用 户 进 行 适 当 的 信息 保护 ， 使 用 户 免 受 互联 
网 中 大 量 垃圾 信息 的 伤害 ， 如 不 对 女性 群体 进 
行 暴力 内 容 的 推送 等 。 与 此 同时 ， 用 户 的 性 别 
信息 也 是 用 户 画 像 的 重要 组 成 部 分 ， 准 确 的 用 
户 画 像 可 以 为 企业 营销 、 广 告 投放 、 内 容 推 荐 
提供 便利 外， 用 户 也 可 以 从 中 获得 个 性 化 推荐 
YAS, 减少 信 息 搜 寻 的 时 间 ， 提 高 使 用 社交 媒 
体 的 满意 度 。 

近年 来 ， 用 户 画 像 相 关 的 测评 比赛 也 广泛 
兴起 ， 例 如 名 为 PAN 的 学 者 群体 举办 了 6 届 
作者 特征 提取 测评 和 1 届 僵 尸 用 户 与 用 户 性 别 
测评 外 ,由 中 国 中 文 信息 学 会 社会 媒体 处 理 专 
委 会 主办 的 全 国 社会 媒体 处 理 大 会 (SMP) 于 
2016-2018 年 连续 三 年 组 织 了 相关 的 用 户 画 像 比 
赛 站。 相关 测评 比赛 中 ， 性 别 预测 是 重要 的 子 
任务 ， 是 用 户 画 像 的 核心 内 容 之 一 ， 也 是 其 他 
应 用 的 基础 中。 之 所 以 要 进行 社交 媒体 用 户 的 
性 别 预测 ， 是 因为 用 户 在 进行 注册 时 会 忽略 性 
别 、 兴 趣 等 相关 信息 1。 

本 文 以 新 浪 微 博 这 一 社交 媒体 平台 中 的 用 
户 信息 为 研究 对 象 ， 利 用 不 同性 别 用 户 语言 
达 和 兴趣 偏好 上 的 差异 预测 用 户 性 别 。 在 社交 
网 络 中 ， 男 性 和 女性 用 户 使 用 的 语言 以 及 兴 
爱好 具有 差异 ，A. H. Schwartz £" 从 75 000 
名 志愿 者 的 Facebook 消息 中 收集 了 7 亿 个 单词 、 
短语 和 主题 实例 ， 对 其 分 析 显 示 ， 不 同性 别 的 
用 户 使 用 的 语言 有 很 大 的 不 同 ,语言 和 性 别 以 
及 年 龄 之 间 有 着 比较 大 的 关联 ; M. Vicente 等 中 
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对 65 000 名 英语 用 户 的 用 户 名 、 用 户 描 述 、 图 
片 和 发 送 的 推 特 内 容 进行 分 析 ， 发 现 性 别 对 用 
户 的 语言 使 用 有 影响 ， 从 而 实现 对 用 户 性 别 的 
预测 。 因 此 ， 用 户 发 布 的 社交 媒体 内 容 与 性 别 
相关 联 ， 呈 现 出 差异 化 的 特点 。 在 此 基础 上 ， 
本 文通 过 分 析 不 同性 别 用 户 在 发 送 社交 媒体 短 
文本 时 的 差异 ,提取 相关 的 语言 特征 和 主题 特 
征 ， 构 建 模型 进行 用 户 性 别 的 预测 。 


@ 相 关 研 究 


2.1 基于 图 像 的 性 别 预测 

基于 图 像 的 性 别 预测 是 通过 分 析 用 户 的 面 
部 特征 进行 预测 。 目 前 ， 基 于 图 像 的 用 户 性 别 
预测 主要 使 用 的 是 传统 图 像 分 类 方法 ， 即 通过 
模型 提取 图 像 中 的 人 脸 特 征 ， 再 利用 分 类 算法 
进行 预测 。 和 常用 于 提取 人 脸 特 征 的 模型 有 BIF 
(Bio-inspired Features ) 5 、 主 动 外 观 模型 
( Active Appearance Model, AAM )""、 局 部 
纹理 特征 (Local Binary Pattern, LBP ) 5! 等 。 
完成 人 脸 特 征 提取 后 ， 利 用 不 同 的 算法 进行 分 
类 , 常 使 用 的 算法 有 k- SB SVM 算法 中、 
AdaBoost 算法 "等 。 近 些 年 ， 随 着 深度 学 习 
在 图 像 识 别 上 的 发 展 ， 各 种 神经 网 络 算法 
在 基于 图 像 的 性 别 预 测 研究 中 取得 了 不 错 的 效 
Ro 
2.2 基于 用 户 信息 的 性 别 预测 

在 社交 网 络 中 ， 基 于 用 户 信息 的 性 别 预测 
主要 分 为 两 类 ， 一 类 是 基于 用 户 的 公开 信息 进 
行 预测 ， 另 一 类 为 基于 用 户 发 表 的 短文 本 内 容 
进行 预测 。 
2.2.1 基于 用 户 公 开 信息 的 性 别 预测 

基于 用 户 公 开 信 息 的 性 别 预 测 利 用 用 户 
的 账户 名 称 、 个 人 描述 、 个 人 主页 设置 、 标 签 
等 信息 ， 如 J D. Burger 等 "使 用 Twitter 用 
户 的 账户 名 称 、 个 人 描述 等 用 户 公开 信息 预测 
用 户 的 性 别 ， 最 高 可 达 92% 的 准确 率 ; J. S. 
Alowibdi 等 P^ 提取 了 用 户 在 Twitter 上 5 个 不 同 
位 置 设 置 的 颜色 : 个 人 资料 背景 颜色 、 文 字 颜 色 、 
链接 颜色 、 边 框 填充 颜色 以 及 界面 边框 颜色 做 
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为 特征 预测 用 户 的 性 别 ， 在 不 同 数据 集 大 小 的 
实验 中 基本 都 能 达到 70% 左右 的 准确 率 。 社 交 
媒体 中 存在 大 量 绒 默 用 户 ， 其 特点 为 很 少 发 表 
内 容 、 微 博 标签 较 少 ， 因 此 准确 预测 较 难 ， 钱 
PRBS) 利 用 微 博 用 户 个 人 资料 中 的 标签 信息 ， 
对 闫 默 用 户 进 行 性 别 预测 ， 达 到 了 71% 的 准确 

当 用 户 的 公开 信息 特征 与 训练 样本 的 特征 
之 间 差 异 较 大 时 ， 基 于 用 户 公 开 信 息 的 性 别 预 
测 方法 的 准确 率 会 降低 ; 同时 用 户 公 开 信 息 量 
较 少 也 会 影响 预测 结果 ， 例 如 用 户 昵称 简短 、 
没有 个 人 描述 等 。 此 外 ， 用 户 出 于 个 人 信息 隐 
私 保护 的 原因 ， 在 个 人 主页 设置 中 选择 不 公开 
个 人 信息 ， 将 会 使 预测 准确 率 大 幅 下 降 。 
2.2.2 基于 内 容 的 性 别 预 测 

文本 内 容 可 根据 长 度 不 同 分 为 短文 本 与 长 
文本 ， 社 交 媒体 的 文本 主要 为 短文 本 ， 包 括 原 
创 文 本 、 转 发 文本 以 及 评论 文本 三 种 类 型 。S. 
Li 等 1 提出 了 一 种 整数 线性 规划 方法 (Integer 
Linear Programming ) ， 利 用 用 户 原 创 及 转发 文 
本 中 的 评论 交互 文本 预测 用 户 性 别 ; Boas 中 
利用 半 监 督学 习 的 方法 实现 了 基于 短文 本 内 容 
的 用 户 性 别 预测 ， 达 到 了 84.3% 的 准确 率 ， 解 
决 了 监督 学 习 方 法 需要 人 工 标 注 样 本 的 障碍 ; 
N. Cheng 等 后 从 Twitter 文本 中 抽取 了 用 户 语 
言 的 心理 语言 学 特征 用 于 构建 特征 空间 进行 用 
户 性 别 预测 ， 达 到 了 85.13% 的 准确 率 ; J.A. B. 
L. Filho 等 P JEH P RZA Twitter 文本 中 的 字 
词 个 数 、 标 点 符号 等 作为 文本 元 属性 ， 进 行 用 
户 性 别 预 测 ， 其 准确 率 达 到 了 81.6%; Q. Wang 
等 DA 对 比 了 文本 表示 方法 VSM (Vector space 
与 主题 模型 LDA(Latent Dirichlet 
allocation ) 、LSA (Latent semantic analysis ) 
预测 中 文 社交 媒体 中 的 用 户 性 别 、 地 域 和 年 
龄 相关 的 人 口 统计 学 信息 的 效果 ， 主 题 模型 
LSA 在 性 别 预 测 上 效果 表现 最 好 ， 准 确 率 达到 
87.2%， 但 相 较 于 LDA 与 VSM 效果 提升 也 比 
BOA PR 

n 元 语法 模型 是 自然 语言 处 理 中 常用 的 模 
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型 ， 在 性 别 预测 领域 有 大 量 的 研究 以 此 为 基础 
进行 短文 本 分 析 ， 进 而 预测 用 户 性 别 ， 例 如 C. 
Peersman 等 上 使 用 nm 元 语法 模型 并 用 卡 方 检验 
进行 特征 选择 ， 利 用 构造 的 特征 向 量 进行 用 户 
性 别 和 年 龄 的 预测 ; E mé 5 在 n 元 语法 特 
征 的 基础 上 加 上 了 首尾 特征 ， 使 用 用 户 的 姓名 
和 微 博 内 容 对 性 别 进行 预测 ， 当 用 户 样本 足够 
大 时 ,将 基于 用 户 姓 名 的 分 类 融和 基于 微 博 内 
容 的 分 类 需 融 合 之 后 能 达到 90% 的 准确 率 ; Z. 
Miller 等 P” (EJH n 元 语法 特征 结合 贝 叶 斯 算法 
来 预测 用 户 的 性 别 , 其 使 用 了 6 种 特征 选择 方法 ， 
最 高 可 以 达到 97% 的 准确 率 ; D. Rao 等 5 抽 
取 了 用 户 的 社会 语言 特征 并 与 n 元 语法 特征 结 
合 对 Twitter 用 户 的 性 别 、 年 龄 、 地 域 和 政治 倾 
向 进行 了 预测 ， 对 性 别 的 预测 准确 率 为 72%。 

基于 内 容 的 性 别 预测 方法 对 文本 内 容量 的 
需求 较 高 ， 社 交 网 络 中 用 户 发 送 的 文本 多 以 短 
文本 为 主 ， 当 用 户 发 送 的 内 容 较 少时 ， 仅 凭借 
少量 的 文本 内 容 很 难 准 确 预测 用 户 的 性 别 ， 这 
要 求 进 行 性 别 预 测 时 所 选取 的 文本 特征 既 要 体 
现 出 性 别 差异 ， 也 要 有 足够 大 的 使 用 率 。 当 数 
据 量 不 足 时 会 出 现 构建 的 分 类 需 属 性 稀 玻 等 问 
题 ， 导 致 性 别 预 测 的 准确 率 下 降 。 


全 实验 数据 与 预 处 理 


本 文 使 用 中 文 社交 媒体 平台 新 浪 微 博 的 用 
户 数据 ， 数 据 集 来 源 于 “SMP CUP2016 微 博 用 
户 画像 ”比赛 所。 数据 集中 一 共 包含 三 类 信息 : 

(1) 社交 关系 信息 。 包 含 一 个 约 256.7 万 
名 微 博 用 户 构 成 的 社交 网 络 ， 其 中 的 社交 关系 
可 能 是 单 向 的 ( 即 单 向 关注 ， 即 为 粉丝 关系 ) 
或 双向 的 ( 即 互 相关 注 ， 即 为 好 友 关 系 ) 。 

(2) 用 户 微 博信 息 。 包 含 约 4.6 万 名 用 户 
的 微 博文 本 内 容 ， 这 些 用 户 都 属于 上 述 社交 网 
络 。 

(3) 用 户 标签 信息 。 包 含 约 0.5 万 名 用 户 
的 年 龄 、 性 别 及 地 域 标 签 ， 均 属于 上 述 4.6 万 名 
用 户 。 

三 类 信息 的 关系 如 图 1 所 示 : 
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社交 关系 信息 (256.7 万 名 用 户 ) 


用 户 微 博信 息 (4.6 万 名 用 户 ) 


用 户 标签 信息 
(0.5 万 名 用 户 ) 


1 数据 集中 三 类 信息 的 关系 


本 文 是 基于 短文 本 内 容 的 用 户 性 别 研究 ， 
最 终 选 择 了 “SMP CUP2016 微 博 用 户 画 像 ” 比 
赛 数据 集中 的 用 户 标签 信息 及 其 对 应 的 用 户 微 
博信 息 作 为 本 研究 的 初始 数据 集 ， 对 数据 进行 
预 处 理工 作 。 

数据 预 处 理 分 为 以 下 3 个 步骤: 

(1) 剔除 与 分 析 无 关 的 噪声 数据 。 用 户 微 
博信 息 中 存在 网 页 链接 、 字 符 乱 码 等 噪声 数据 ， 


ChinaXiv 合 作 期 刊 


这 部 分 数据 既 不 能 还 原 用 户 的 语言 表达 意图 ， 
也 不 能 用 于 性 别 预 测 的 特征 提取 ， 因 此 将 其 吻 
除 。 


(2) 别 除 缺失 数据 。 将 缺失 性 别 标签 及 微 
博信 息 少 于 5 条 的 用 户 标 签 信息 剔除 ， 缺 失 性 
别 信息 的 数据 无 法 用 于 性 别 预测 实验 ， 而 微 博 
信息 过 少 也 难以 提取 有 效 特 征 ， 导 致 性 别 预测 
效果 差 的 结果 。 

(3 ) 对 微 博信 息 中 的 短文 本 内 容 进 行 分 词 ， 
本 人 研究 采用 NLPIR 汉语 分 词 系统 进行 分 词 处 理 ， 
并 保留 标点 符号 等 原始 信息 。 

经 过 处 理 后 的 数据 集 包含 4342 个 用 户 及 其 
发 送 的 微 博 短文 本 331 634 条 ， 用 于 实验 模型 的 
训练 与 检验 。 


@ 实 验 构建 与 特征 抽取 


4.1 实验 构建 

本 研究 的 输入 为 微 博 短文 本 ， 通 过 对 数据 
进行 分 析 ， 利 用 数据 特征 进行 建 模 ， 训 练 相 关 
算法 ， 进 而 对 微 博 用 户 的 性 别 进行 预测 。 对 性 
别 预测 的 结果 ， 通 过 相应 评测 指标 的 评价 ， 对 
算法 的 效果 进行 评估 。 实 验 的 一 般 流程 如 图 2 
所 示 : 


特征 提取 


模型 构建 与 
数据 训练 


结果 评测 
模型 验证 


2 实验 流程 


4.2 特征 抽取 

根据 特征 抽取 方式 的 不 同 ， 可 以 获得 微 博 
短文 本 内 容 的 两 类 不 同 特征 ， 分 别 为 语言 特征 
和 主题 特征 。 
4.2.1 语言 特征 

N. Cheng”, D. Rao5 在 使 用 Twitter 数 
据 进 行 用 户 性 别 预测 时 采纳 的 语言 特征 如 表 1 
所 示 ， 考 虑 到 中 文 文本 与 Twitter 用 户 使 用 语 
言 的 差别 ， 在 此 基础 上 ， 本 研究 总 结 了 7 个 


可 从 微 博 短文 本 中 提取 的 语言 特征 类 别 ， 分 
别 为 : 中 表情 : 微 博 中 用 户 使 用 的 表情 ; © 
情感 词语 : 积极、 消极、 焦虑、 愤怒 等 情感 
词 的 总 称 ; Oia: “哈哈 ”“ 恩 恩 ” 等 
描述 语气 的 词 ; 亲属 称呼 :“ 妈 妈 ”“ 父 母 "“ 兄 
弟 姐 妹 ” 等 称呼 ; 名 标点 符号 : 包括 各 种 重 
复 使 用 的 标点 ,如 "1 1 1"; ORT: “R” MR 
的 ”等 ; ORR: 指 在 用 户 文本 中 出 现 的 不 
文明 语言 。 
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表 1 短文 本 内 容 性 别 预测 中 使 用 过 的 语言 特征 


D.Rao 等 P3] N. Cheng 等 64 D. Bamman 等 B9 

表情 符号 否定 词 (no,not,never ) 代词 (youu:ur ) 
OMG 积极 的 情绪 (love,nice ) 情感 词语 ( sad,love ) 
省 略 号 消极 的 情绪 ( hurt,ugly ) 表情 符号 CD) 


二 元 词 (my_XXX, ) 
重复 的 字母 (niceeeeee ) 
自我 描述 (I XXX, ) 
笑 (LOL,ROTFL,haha ) 
Hi ( Ugh,mmmm ) 


赞同 ( yea,yeah,ohya ) 


焦虑 (worried,fearful ) 
愤怒 Chate,kill ) 
悲伤 (crying,grief ) 
think,consider ) 


沉思 ( 
RX (maybe,perhaps ) 


Cr 
肯定 (alwaysnever ) 


亲属 称呼 ( mom,sister ) 
缩写 (lolomg ) 
同意 (okeyyes ) 


否定 (no,cannot ) 


Dassen 
ZI Va 


介词 (a,the,my ) 


WGE ( dude,man,bro,sir ) #E IE ( block,stop ) 
激动 ( 111!) 同意 (agree,OK ,yes ) 


单个 惊叹 号 (1!) 


本 文通 过 以 下 方式 获取 语言 特征 : 

(1) 表情 。 微 博 短文 本 中 表情 以 “[ 具体 
表情 ]” 的 格式 体现 ( 例如: [微笑 ] ) ， 可 使 用 
正则 表达 式 从 文中 抓 取 每 一 个 用 户 使 用 的 表情 ， 
对 每 一 个 用 户 的 所 有 表情 取 并 集 获 得 表情 全 集 。 

(2) 情感 词 。 对 于 情感 词语 语言 特征 可 使 
用 NTUSD 情感 词典 与 原文 进行 匹配 ， 获 取 用 户 
使 用 的 情感 词语 ， 对 每 一 个 用 户 的 所 有 情感 词 
语 取 并 集 获 得 情感 词语 全 集 。 

(3 ) 语 气 词 、 亲 属 称呼 、 标 点 符号 、 代 词 、 
禁 语 。 由 于 该 类 词语 的 数量 相对 而 言 比较 少 ， 
可 以 直接 通过 对 部 分 用 户 的 微 博 短文 本 进行 
标记 ， 找 出 相关 的 词语 。 但 考虑 到 人 工 标记 
不 全 的 问题 ， 本 文 尝 试 利 用 文本 向 量化 后 的 
余弦 距离 ， 选择 相 似 的 词 作为 该 类 词语 的 补 
x, 具体 而 言 : 使 用 Word2Vec 对 分 词 后 的 微 
博 短文 本 进行 计算 ， 获 得 每 个 词 的 词 问 量 ; 
针对 人 工 标记 出 的 语气 词 、 亲 属 称呼 、 代 词 、 
禁 语 ， 计 算 这 些 词语 与 语料库 中 词语 的 相似 
度 ， 根 据 相 似 度 排 序 筛选 出 同类 别 的 词 作为 
补充 最 高 的 词 。 


对 于 短文 本 中 出 现 的 词语 t, 使 用 公式 (1 ) 
统计 性 别 i 使 用 词语 t 的 人 数 占 该 性 别 总 人 数 
的 比例 ， 式 中 n (it) 表示 性 别 i 的 用 户 中 使 
用 了 t 词 语 的 人 数 ,，n G) 表示 性 别 i 的 用 户 
总 人 数 。 


n(i,t) . 

porn i 
通过 对 7 个 类 别 词语 在 不 同性 别 用 户 中 的 
使 用 比例 ， 发 现 男 性 和 女性 使 用 标点 符号 和 代 
词类 别 词 语 的 比例 相近 ， 因 而 不 选择 这 两 类 词 
作为 语言 特征 。 
对 表情 、 情 感 词语 、 话 气 词 、 杂 属 称呼 和 
禁 语 这 5 个 类 别 的 词语 分 析 ， 男 女 使 用 比例 最 
高 的 10 个 词语 的 如 图 3- 图 7 所 示 。 横 坐标 代 
表 某 个 词语 ， 纵 坐标 为 使 用 比例 。 从 中 可 以 看 
出 : 女性 相 比 男性 ， 使 用 表情 的 比例 更 大 ; 情 
感 词语 中 不 同 词语 的 使 用 情况 不 同 ; 亲属 称呼 
和 语气 词 中 ， 个 别 词语 男性 使 用 的 比例 更 大 ， 
总 体 上 女性 更 偏向 使 用 该 类 词语 ; 禁 语 总 体 使 
用 比例 较 小 ， 但 男性 比 女 性 更 倾向 使 用 这 类 词 


A. 
Vito 
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01 上 


i123 48 3S. 8 7 & 2 20 
表情 词 
-0-8 =k 


3 表情 词 男女 使 用 比例 
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ep pt ij 
123 4 5 6 7 8 9 10 
情感 词语 


4 情感 词语 男女 使 用 比例 


05 0.6 0.2 
0.5 
0.4 
0.4 
= 03 = = 
me Be 
= $ ES 
E m 03 HE 
# 0， 也 cr 
0.2 
0.1 01 
0 上 L 1 1 上 1 1 1 1 J 0 0 L L L 1 L 1 上 1 L J 
2z 2345678 8 10 123 45 6 7 8 9 10 123 45 6 7 8 9 10 
亲属 称呼 语气 词 禁 语 
2 Bex -8 ~ek Be 


5 语气 词 男女 使 用 比例 


对 于 表情 和 情感 词语 这 两 个 特征 ， 本 研究 
使 用 卡 方 检验 (chi-square test ) 进行 得 选 词语 用 
于 特征 构建 。 对 词语 +， 统计 不 同性 别 使 用 该 词 
语 的 情况 如 表 2 所 示 


表 2 不 同性 别 使 用 词语 t 的 统计 数据 


6 亲属 称呼 男女 使 用 比例 


男性 女性 
使 用 词语 t a b 
未 使 用 词语 t c d 


词语 t 的 卡 方 值 X? 可 由 公式 (2 ) 计算 得 ， 
卡 方 值 越 大 说 明 该 词语 与 性 别 的 相关 度 越 大， 
因此 各 选择 卡 方 值 最 大 的 100 个 词语 构成 表情 
和 情感 词语 的 语言 特征 。 
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7 禁 语 男 女 使 用 比例 


5 n(ad 一 be) 
~ (a+co(b+d)a+b(c+d) 公式 (2) 

对 于 语气 词 、 亲 属 称呼 和 禁 语 这 三 个 语言 
FME, ， 由 于 在 特征 词 科 选 的 过 程 中 筛选 的 词 较 
少 ， 本 文 不 采用 上 述 的 卡 方 检验 的 方案 选取 特 
征 ， 而 是 将 这 三 个 类 别 的 全 部 词语 共计 75 个 用 
于 语言 特征 的 构造 。 

以 上 5 个 类 别 共 选取 了 275 个 词语 用 于 构 
成 微 博 短文 本 内 容 的 语言 特征 。 对 于 第 i 个 用 户 ， 
统计 该 用 户 使 用 词语 t 的 频次 th， 构建 语言 特征 
向 量 X;， 其 计算 公式 为 : 

X= (tintz tz" tin) 
4.2.2 主题 特征 
不 同性 别 用 户 的 兴趣 爱好 不 同 会 导致 发 送 


ak 


公式 (3 ) 
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微 博 文本 的 主题 不 同 ,因此 可 以 运用 LDA( Latent 
Dirichlet Allocation ) 模型 对 用 户 微 博 短文 本 的 
主题 抽取 ， 构 建 主题 特征 用 于 预测 用 户 性 别 。 
LDA 是 一 种 基于 词 袋 模型 的 无 监督 机 器 学 习 方 
法 ， 可 以 用 来 识别 大 规模 文档 集中 潜藏 的 主题 
言 息 ， 同 时 也 能 有 效 对 文本 内 容 降 维 ， 解 决 数 
据 稀 疏 问 题 。 

LDA 模型 将 语料库 中 的 每 一 篇 文档 与 K 个 
主题 的 多 项 式 分 布 记 为 0, 每 个 主题 与 词汇 表 中 
的 NN 个 单词 的 多 项 式 分 布 记 为 $6。9 和 中 分 别 有 
一 个 带 有 超 参 数 w 和 B 的 Dirichlet 先 验 分 布 。 
对 于 一 篇 文档 d 中 的 每 一 个 单词 w, P(z=k) 代表 
从 文档 中 抽取 一 个 单词 w, P(wilz=k) 属于 主题 z 
的 概率 ; 从 主题 z 中 抽取 一 个 单词 , 代表 当 取 出 单 
词 属于 主题 k 时 该 单词 为 w 的 概率 。 将 这 个 过 程 
重复 Ny 次 (Nu 是 文档 d 的 单词 总 数 ), 就 产生 了 
文档 do 文档 中 单词 wi 的 概率 就 能 表示 为 : 

P(w =A Pwi KDP 公式 (4) 

在 本 研究 中 , 将 每 名 用 户 发 布 的 所 有 短文 本 
内 容 构 成 第 i 个 用 户 的 文档 Di, 那么 可 认为 文档 
Di 的 主题 分 布 问 量 (Zi, zy, Zis °, Zin) 可 认为 构成 


a 
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了 第 i 个 用 户 的 主题 分 布 向 量 。 
Y= (Zi, Ziz Ziz °°" Zik) 公式 (5) 

本 文 在 LDA 模型 训练 的 过 程 中 使 用 困惑 度 
确定 模型 最 佳 K (AL, 实验 过 程 中 , Gibbs 抽样 迭代 
的 次 数 设 为 100, a. B 超 参数 设置 为 a=50/K， 
B=0.01, 此 时 算法 有 较 好 的 表现 中, E K 值 提升 
的 过 程 中 , 困惑 度 的 下 降 有 限 , 图 8 展示 的 是 玉 值 
与 困惑 度 的 关系 , 结合 不 同 K 值 的 困惑 度 和 最 终 
产 出 主题 的 词语 , 本 文 使 用 值 为 15 时 产 出 的 模 
型 结果 。 表 3 展示 的 是 15 个 主题 中 排序 前 10 的 
词语 。 


560 


Perplexity 


0 5 10 15 20 25 
Number of Topic 


8 不 同 K 值 时 困惑 度 变化 


表 3 每 个 主题 的 前 10 个 词 


主题 词语 

topic 0 哈哈 、 嘻 喀 、 泪 、 厉 害 、 猫 、 表 情 、 好 看 、 哥 哥 、 帅 、 妹 妹 、.… 

topic 1 新 闻 、 中 国 、 博 文 、 网 易 、 北 京 、 今 日 头条 、 阅 读 、 资 讯 、 专 访 、 微 信 、.… 

topic 2 续航 、 人 性能、 处理 器 、 比 亚 迪 、 机 型 、 时 速 、 油 耗 、 变 速 箱 、 太 阳 能 、 显 示 器 、.… 
topic 3 礼物 、 宝 贝 、 情 人 节 、 假 期 、 八 月 、 圣 诞 、 节 日 、 晚 安 、 欢 迎 、 看 看 、.… 

topic 4 手机 、 红 包 、 和 领取、 签到、 抽奖 、 小 米 、 信 息 、iPhone 、 客 户 端 、 相 册 、.… 

topic 5 关 晓 彤 、 妆 小 刚 、 罗 志 祥 、 王 宝 强 、 陈 学 冬 、 邓 超 、 陈 赫 、 李 小 璐 、 饰 演 、 孙 红 雷 、.… 
topic 6 空间 、 存 储 、 美 团 、 兴 趣 、 公 众 、 微 信 、 水 晶 、 精 力 、 利 用 、 相 位 、.… 

topic 7 ERR, WT. REA, ATA], RE. EZR. NBA, DEBE. (ERTS. EHN, 
topic 8 技术 、 学 习 、 效 果 、 训 练 、 能 力 、 专 业 、 AL WEH, HRR, JE, 

topic 9 成 都 市 、 河 南 省 、 河 北 省 、 深 圳 市 、 西 安 市 、 开 发 区 、 广 州 市 、 绵 阳 、 市 政府 、 福 建 省 、 
topic 10 ” 美 拍 、 分 享 、 视 频 、 音 乐 、 播 放 、 录 制 、 自 、YouTube、 魔 力 、NBA、... 

topic 11 ”智慧 、 思 想 、 魅 力 、 命 运 、 人 才 、 婚 姻 、 思 考 、 心 录 、 心 态 、 安 全 感 、... 

topic 12 ”Nike、Party、adidas、 运 动 鞋 、 配 色 、Young、Black、Max、Moto、Jordan、... 

topic 13 ” 京东、 商城、 购买 、 精 心 、 围 观 、 评 价 、 活 动 、 天 猫 、 支 付 宝 、 优 惠 券 、... 

topic 14 ” 生命、 爱情、 青春 、 一 生 、 梦 想 、 时 光 、 人 类 、 过 程 、 内 心 、 意 义 、.. 
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5.1 评价 方法 
人 研究 选用 精准 率 (Precision), A E% 
(Recall ) 和 FE 值 (F-Measure ) 作为 评价 指标 
来 对 实验 的 结果 进行 比较 评价 。 三 种 指标 的 计 

算 方式 如 下 : 


_ TP 
TP+FP3; 公式 (6) 
-TP 
TP+FN ; 公式 (7) 
2*P*R 
F — Measure = i 
P+R 公式 (8) 


以 女性 性 别 为 例 ，TP 表示 将 性 别 预测 正确 
的 数量 ; FN 表示 将 正确 的 女性 预测 为 男性 的 数 
Ht; FP 表示 将 正确 的 男性 预测 为 女性 的 数量 。 
5.2 模型 训练 
5.2.1 训练 数据 与 测试 数据 

数据 预 处 理 得 到 的 4 342 名 用 户 中 男性 和 女 
性 的 数据 比例 不 一 致 ， 为 更 好 地 进行 试验 ， 随 
机 选择 2 110 名 用 户 按 照 1: 1 的 性 别 比例 构建 
实验 数据 集 ,2 110 名 用 户 共 发 表 微 博 156 627 篇 。 
其 中 1 560 名 用 户 用 于 模型 的 训练 ( 男女 性 别 比 
例 为 1: 1), 550 名 用 户 用 于 模型 效果 的 检验 ( 男 
女性 别 比 例 为 1: 1 

在 模型 训练 阶段 ，1 560 名 用 户 采 用 5 折 交 
又 检验 的 方法 进行 模型 训练 ， 保 证 数据 的 充分 
利用 与 模型 训练 的 准确 。 


—®—percesion —®—recall 
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5.2.2 模型 的 参数 调 优 

将 抽取 的 用 户 语言 特征 与 主题 特征 组 合成 
为 新 的 特征 向 量 进行 实验 ， 获取 最 佳 的 性 别 预 
测 结果 。 

Mo=(XitY)=(t, ta ts, **, “Zie) 
公式 (9) 

本 研究 采用 的 是 文 持 向 量 机 (Support 
Vector Machine, SVM ) 这 一 基于 统计 学 习 理 论 
的 机 需 学 习 方 法 。 文 持 向 量 机 通过 核 轴 数 解决 
计算 复杂 度 的 问题 ， 除 重要 的 参数 cost 外 ， 还 
有 四 种 不 同 的 核 函数 ， 分 别 为 线性 (Linear) 核 

函数 、 径 癌 基 (radial basis function, RBF ) *% ek 

数 、sigmoid 核 函 数 和 多 项 式 (Polynomial ) 4% 
函数 ， 每 一 种 核 函 数 有 不 同 数量 的 参数 。 本 文 
使 用 LIBSVM 这 一 软件 包 实 现 对 用 户 性 别 的 预 
测 ， 通 过 选 定 不 同 的 核 函 数 、 控 制 相关 变量 对 
核 函 数 进行 参数 训练 ， 从 而 获得 最 优 的 预测 效 
Ro 

对 于 线性 核 函 数 只 需 训练 参数 cost。 为 了 
使 cost 值 尽 量 覆 盖 更 多 的 值 ， 本 文 使 用 指数 函 
数 规定 cost 的 选取 范围 ， 其 取 值 范围 为 2" 至 
2。 最 终结 果 显 示 当 cost=1/32 时 在 评价 指标 上 
表现 最 好 ， 有 较 好 的 预测 效果 。 图 9 展示 了 不 
同 cost 取 值 时 的 预测 效果 ， 可 以 看 出 当 cost 值 
较 小 或 者 较 大 的 时 候 ， 预 测 的 效果 都 不 够 好 ， 
这 是 因为 ，cost 值 越 高 越 容易 过 拟 合 ，cost 值 越 
小 越 容易 欠 拟 合 。 


tins Zils Zia, Ziz, ` 


f-measure 


图 9 线性 核 函 
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径 癌 基 核 函数 有 gamma 参数 以 及 cost 参数 ， 
本 研究 使 用 GridSearch 网 格 搜索 的 方式 确定 最 
佳 参 数 ，gamma 以 及 cost 的 变化 范围 都 是 从 2 
22°, “4 cost=32, gamma=1/128 时 预测 结果 最 佳 。 
gamma 是 RBF 函数 中 自 带 的 一 个 参数 ， 一 定 程 
度 上 决定 了 数据 映射 到 新 的 特征 空间 后 的 分 布 ， 
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gamma 值 越 大 支持 向 量 越 少 ，gamma 值 越 小 支 
持 癌 量 越 多 ， 文 持 向 量 的 个 数 影响 模型 训练 的 
速度 和 准确 度 。 图 10 展示 的 是 固定 cost 值 为 1, 
改变 模型 gamma 的 值 ， 在 测试 集中 进行 分 类 的 
结果 ， 从 中 可 以 看 到 ， 当 gamma KF 1 的 时 候 
预测 的 准确 率 很 低 。 


—®—recall —®—f-measure 


ny ~ ~ > % NS 


10 RBF 核 函 数 gamma 值 变化 对 预测 结果 的 影响 


sigmoid 4% K BA cost, gamma 和 coef0 三 
种 参数 ， 本 研究 分 两 步 进 行 参 数 调 优 : O cost 
设 为 默认 值 1， 使 用 GridSearch 网 格 搜索 确定 
gamma 以 及 coef0 的 值 ， 其 中 gamma 和 coef0 
的 取 值 范围 定 为 2m 至 2;; @ 使 用 第 一 步 训练 
出 的 gamma 以 及 coef 值 ， 将 cost 的 范围 设 定 
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ws 


HO EF 进行 训练 。 最 终 得 到 当 cost=32, 
coef0=8, gamma=1/16 时 模型 的 预测 效果 最 佳 。 
11 展示 的 是 固定 cost 值 与 gamma 值 ， 改 
变 模 型 中 coefm 的 值 对 测试 集 的 预测 效果 ， 当 
coef0 的 值 超过 某 个 值 后 ， 其 预测 效果 将 大 幅 下 
滑 , 通常 情况 下 coef0 的 值 越 大 , 预测 结果 越 差 。 


—e— f-measure 
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Z Ti SEK eh BLA cost, gamma, coef0 和 
degree 4 种 参数 ， 其 中 degree 参数 最 为 关键 。 
本 文 分 3 个 步骤 来 确定 最 佳 参数 : 中 将 cost, 
gamma, coef0 设 定 成 为 默认 值 ， 将 degree 范 
围 设 定 为 0 至 19 进行 训练 ， 得 到 最 佳 degree 
值 为 1; 四 将 cost 设 置 为 默认 值 ，degree 设 
置 为 最 优 参 数 1， 使 用 GridSearch 网 格 搜索 
法 使 gamma 及 coef0 在 2 至 2 取 值 范围 内 
变化 ， 得 到 最 佳 的 gamma=1/4, coef0=16 的 
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{H; @) degree=1, gamma=1/4,coef0=16 设 为 固 
定 参 数 ， 将 cost 取 值 在 2” 至 2’ 训练， 最 终 


确定 的 最 优 参 数 为 degree=1， gamma=1/4, 


coef0=16,cost=16 时 模型 的 预测 效果 最 佳 。 
12 展示 的 是 改变 模型 中 degree 的 值 ， 对 测试 
集 进行 预测 的 效果 ， 其 中 degree 的 变化 范围 从 
0 到 19， 随 着 degree 值 越 来 越 大 ， 预 测 效 果 越 
来 越 差 ， 当 degree 超过 15 后 预测 结果 几乎 没 
有 任何 改变 。 


==@— f-measure 


0 12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 


12 多 项 式 核 函 数 degree 值 变化 对 预测 效果 的 影响 


针对 在 测试 集 的 预测 结果 ， 选 取 4 种 不 同 
核 函数 效果 最 优 的 参数 进行 横向 比较 ， 可 以 看 
出 sigmoid 核 函 数 的 表现 最 差 ， 在 三 个 指标 中 均 
未 达到 80%; 径 癌 基 核 函数 的 预测 效果 最 好 ， 


在 三 个 评测 指标 中 都 比 其 他 核 函 数 表现 更 好 。 
因此 将 选择 参数 为 cost=32，gamma=1/128 的 径 
向 基 核 函数 作为 预测 模型 ， 用 于 实验 数据 的 预 
测 。 


表 4 4 种 核 函 数 的 最 优 参数 及 预测 效果 对 比 


评测 指 ”线性 核 函 数 ” 径 向 基 核 函数 (cost=32， sigmoid $% PA% (cost=32,co- MINAZ PAX (degree=1， 
标 ( cost=1/32) gamma=1/128 ) ef0=8,gamma=1/16) gamma=1/4,coef0=16,cost=16) 
精准 率 0.82 0.829 0.791 0.822 
召回 率 0.818 0.829 0.787 0.811 
F 值 0.818 0.829 0.787 0.809 


5.3 结果 比较 

5.3.1 baseline 选择 
基于 n 元 语法 模型 的 性 别 预测 方法 中 和 

基于 心理 语言 学 词典 的 性 别 预测 方法 所 都 是 


SA 


利用 用 户 的 微 博文 本 内 容 进行 性 别 预测 的 自然 
语言 处 理 方法 ， 在 针对 社交 媒体 中 用 户 的 性 别 
预测 有 较 好 的 效果 。 本 文选 择 这 两 种 方法 作为 
baseline 进行 比较 。 
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在 n 元 语法 模型 中 ,通过 抽取 500 个 最 具 
有 区 分 性 的 一 元 和 二 元 词 ， 统 计 每 名 用 户 的 使 
用 频率 作为 权重 构建 用 户 的 特征 向 量 ; 针对 基 
于 心理 语言 学 词典 的 用 户 特 征 向 量 ， 使 用 文 心 
( TextMind ) 中 文 心理 分 析 系 统 5 构建， 对 用 
户 发 文 的 内 容 进行 统计 ， 提 取 102 个 特征 ， 包 
括 各 种 词性 词语 使 用 的 数量 、 词 长 比例 、 情 感 
词 数量 等 。 
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5.3.2 结果 对 比 

将 实验 数据 应 用 于 训练 所 得 的 最 优 模型 ， 如 
13 所 示 ， 本 文 提出 的 主题 特征 、 语 言 特征 构建 
及 两 种 特征 融合 构建 的 性 别 预测 模型 的 精准 率 、 
召回 率 和 下 值 指标 均 比 选择 的 baseline 有 所 提升 ， 
特别 是 与 心理 语言 学 词典 相 比 ， 提 升 较 大 ， 本 人 研 
究 表 现 最 差 的 主题 特征 在 该 指标 上 都 提升 了 14.3 
个 百分点 。 
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( 神经 网 络 ) 


13 不 同 特征 的 实验 效果 比较 


基于 ma 元 语法 模型 的 性 别 预测 效果 不 显著 ， 
精准 率 、 召 回 率 和 下 值 都 未 达到 70%， 其 中 FF 值 


对 同一 用 户 使 用 n 元 语法 模型 和 语言 特征 构造 的 
向 量 。 由 于 n 元 语法 模型 是 针对 所 有 的 一 元 和 二 


表现 最 好 ， 为 69.3%。 通 过 分 析 可 知 ，n 元 语法 模 
型 虽然 抽取 了 500 个 特征 进行 特征 向 量 的 降 维 ， 
但 构造 的 特征 向 量 依 然 较为 稀 玩 。 表 5 展示 了 针 


元 词汇 进行 的 特征 选择 ， 这 些 词 语 数量 较 多 ， 造 
成 向 量 稀 玻 。 而 本 文 构建 语言 特征 时 选择 的 词语 ， 
通过 对 用 户 使 用 频率 的 统计 有 效 避 免 了 稀 玻 问题 。 


表 5 使 用 n 元 语法 特征 与 语言 特征 构造 的 向 量 对 比 


使 用 n 元 语法 模型 构造 的 特征 向 量 


使 用 语言 特征 构造 的 特征 向 量 


0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,... 


心理 语言 学 词典 方法 的 精准 率 虽然 达到 了 
72.6%， 但 召回 率 只 有 60%。 通 过 分 析 可 知 ， 心 
理 语言 词典 构建 的 特征 中 包含 代词 、 表 达 符 合 
这 类 的 词语 ， 而 本 文 的 语言 特征 通过 统计 这 类 
词语 与 性 别 的 关联 度 ， 这 类 词语 忽略 ， 不 纳入 
语言 特征 的 构建 ， 而 心理 语言 词典 没有 忽略 ， 
均 纳 入 了 特征 构建 ， 得 到 的 精确 率 、 召 回 率 和 
F 值 比 语言 特征 分 别 低 9.1%, 20.4% 和 17.3%。 


0,0,0,7,2,0,0,1,0,0,0,0,11,0,0,0,3,1,2,1,0,0,3,... 


从 而 进一步 验证 了 基于 语言 特征 构建 模型 预测 
性 别 时 需 忽 上 略 代 词 和 表达 符合 等 。 

对 比 本 研究 的 主题 特征 、 语 言 特征 和 两 种 
特征 到 加 可 知 ， 主 题 特征 表现 最 差 ， 语 言 特 征 
表现 较 好 ， 著 加 特征 结果 最 优 。 在 精准 率 指标 
上 ,语言 特征 的 精准 率 为 81.7%， 仅 比 主 题 特征 
高 0.8%， 但 在 召回 率 和 FF 值 上 ,语言 特征 大 幅 
提升 , 分 别提 升 了 6.1% 和 5.7%。 精准 率 的 提升 ， 
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表明 语言 特征 进行 性 别 预测 时 更 加 有 效 。 两 种 
特征 车 加 的 预测 结果 ， 在 语言 特征 的 基础 上 精 
准 率 进一步 提升 了 1.4%， 达 到 83.1% 提升 效果 
显著 ; 相 较 之 下 ， 召 回 率 和 F 值 与 语言 特征 相 
比 提升 有 限 。 分 析 可 知 这 与 主题 特征 的 特征 数 
量 与 预测 效果 有 关 ， 一 方面 主题 特征 的 特征 数 
量 较 少 ， 另 一 方面 主题 特征 的 召回 率 与 F 值 相 
对 语言 特征 差 值 较 大 ， 因 此 两 种 特征 琶 加 对 召 
回 率 和 下 值 的 提升 较 少 。 

同时 ,本 文 对 比 了 SVM 模型 与 BP 神经 网 
络 和 TEXTCNNC 神经 网 络 的 效果 。 本 文 构建 
了 2 层 隐 藏 层 的 BP 神经 网 络 : 第 一 层 含 有 神经 
元 120 个 ， 第 二 层 有 神经 元 60 个 ， 使 用 通过 主 
题 特征 和 语言 特征 提取 的 向 量 作为 输入 ， 使 用 


a F(a 
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sigmoid 函数 作为 输出 层 函 数 。 对 于 TEXTCNN 
模型 ， 则 不 再 使 用 特征 向 量 作为 输入 ， 而 是 用 户 
发 送 的 文本 分 词 后 的 词 向 量 ， 癌 量 的 维 数 为 128 
维 ; 在 卷 积 层 ， 使 用 三 种 不 同 高 度 的 卷 积 核 ， 分 
别 为 2、3、4， 每 一 种 卷 积 核 的 个 数 设置 为 128 
个 。 两 种 不 同 模型 与 SVM 模型 的 效果 对 比如 图 
14 所 示 ， 总 体 而 言 三 种 模型 的 效果 较为 接近 ， 

SVM 的 效果 最 好 。SVM 模型 的 F 值 比 神经 网 络 
高 了 4%， 比 TEXTCNN 模型 高 了 2%， 精 准 率 
上 SVM 模型 比 BP 神 经 网 络 和 TEXTCNN 高 1%。 
TEXTCNN 的 效果 比较 优秀 也 是 因为 模型 考虑 到 
了 语言 上 下 文 之 间 的 关系 ， 而 通过 语言 特征 和 主 
题 特征 提取 的 向 量 也 有 相同 效果 ， 进 一 步 说 明了 
语言 .主题 两 类 特征 对 于 文本 性 别 分 类 的 重要 性 。 
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主题 特征 + 语言 特征 用 户 文本 (TEXTCNN ) 主题 特征 + 语言 特征 


(神经 网 络 ) 


(SVM) 


14 神经 网 络 的 对 比 


总 体 而 言 ， 本 文 提 出 的 主题 特征 、 语 言 特 
征 和 两 种 特征 登 加 对 性 别 的 预测 均 优 于 选取 的 
baseline 方法 ， 对 社交 媒体 用 户 性 别 的 预测 效果 
起 到 了 很 好 的 提升 。 


@ 结 语 


社交 媒体 中 个 人 信息 的 隐私 保护 始终 面临 
诸多 挑战 ,虽然 已 有 法 律 条 文 的 规范 ， 但 在 实 
践 过 程 中 用 户 依 然 暴 露 在 风险 中 。 利 用 社交 媒 
体 中 的 相关 信息 进行 性 别 预测 ， 能 对 用 户 起 到 
一 定 的 保护 作用 。 
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本 文 以 中 文 社交 媒体 新 浪 微 博 为 例 ， 从 用 
户 的 短文 本 中 提取 主题 特征 和 语言 特征 ， 对 文 
持 向 量 机 的 机 带 学 习 算法 进行 参数 调 优 与 训练 ， 
得 到 一 个 对 性 别 预测 有 显著 提升 的 分 类 需 ， 起 
到 了 较 好 的 预测 效果 ， 在 精准 率 、 召 回 率 和 FF 
值 上 都 有 所 提升 ， 特 别 是 精准 率 与 baseline 方法 
相 比 提升 均 超过 10 个 百分点 ,说 明 从 短文 本 的 
角度 对 用 户 性 别 进行 预测 是 一 个 有 效 的 途径 。 
同时 ,与 常用 的 nn 元 语法 模型 和 心理 语言 学 词 
典 方 法 相 比较 ， 有 效 解决 了 构造 向 量 的 稳 牙 问 
题 ， 为 进一步 促进 基于 性 别 的 用 户 信 息 保 护 提 
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供 了 基础 。 


本 研究 提出 的 方法 是 利用 中 文 短 文本 进 


行 性 别 预 测 ， 该 方法 可 推广 到 其 他 社交 媒体 如 
Twitter 中 进行 中 文 用 户 的 性 别 预 测 。 
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Research on Gender Prediction of Chinese Social Media Users 
— Taking Sina Weibo Short Text Content as an Example 
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1. School of Information and Security Engineering, Zhongnan University of Economics and Law, 
Wuhan 430073 
2. Baidu Network Technology Co.,Ltd., Beijing 100085 
3. School of Information Management, Wuhan University, Wuhan 430072 

Abstract: [Purpose/significance] Different from the rapid development of the Internet, the development 
of personal information security protection is relatively lagging. By predicting the gender of social media 
users, it can better provide privacy protection for the users. [Method/process] The short texts posted by users 
in social media, Sina Weibo, were taken as the research object. The experiment extracted linguistic features 
and topic features from the short texts. For each user, we constructed features vector based on linguistic 
features, topic features, and the superposition of two features, then used SVM Machine learning algorithms 
built a classifier for gender prediction. [Result/conclusion] Experiments show that the linguistic features and 
topic features can predict the gender of the users accurately, and the effect is superior to other features used in 
gender prediction. 
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